18. 有限 MDP

有限 MDP

请使用此链接获取 OpenAI Gym 中的可用环境。

环境索引为环境 ID,每个环境都有对应的观察空间动作空间奖励范围tStepLTrialsrThresh

CartPole-v0

在表格中查找对应于 CartPole-v0 环境的行。请记下相应的观察空间 (Box(4,)) 和动作空间 (Discrete(2))。

正如在 OpenAI Gym 文档中所描述的情况:

每个环境都有第一类 Space 对象,描述了有效的动作和观察结果。

  • Discrete 空间允许存在固定范围的非负数。
  • Box 空间表示 n 维方框,因此有效动作或观察结果将是一个有 n 个数字的数组。

观察空间

CartPole-v0 环境的观察空间有一个笔误:Box(4,)。因此,在每个时间点的观察结果(或状态)是有 4 个数字的数组。你可以在此文档中查看每个数字表示的含义。打开该页面后,向下滚动到观察空间的说明部分。

注意购物车速度杆子顶端速度的最小值 (-Inf) 和最大值 (Inf)。

因为数组中的条目对应的每个索引可以是任何实数,所以状态空间 \mathcal{S}^+ 是无限的!

动作空间

CartPole-v0 环境的动作空间类型为 Discrete(2)。因此,在任何时间点,智能体只能采取两个动作。你可以在此文档(注意,和查找观察空间使用的文档一样!)中查看每个数字表示的含义。打开该页面后,向下滚动到动作空间的说明部分。

在这种情况下,动作空间 \mathcal{A} 是一组有限的集合,仅包含两个元素。

有限 MDP

记得在上个部分,我们提到:在有限的 MDP 中,状态空间 \mathcal{S}(或在阶段性任务中为 \mathcal{S}^+)和动作空间 \mathcal{A} 必须都是有限的。

因此,虽然 CartPole-v0 环境的确指定了 MDP,它没有指定有限的 MDP。在这门课程中,我们将重点讲解有限 MDP 的解决方法。

你在这门课程中将解决的环境为:

如果你愿意的话,可以现在花时间详细了解这些环境。检查确保每个环境都指定有限的 MDP。